检索结果

Select

1. 基于Spark的ItemBased推荐算法性能优化

廖彬, 张陶, 国冰磊, 于炯, 张旭光, 刘炎

计算机应用 2017, 37 (7): 1900-1905. DOI: 10.11772/j.issn.1001-9081.2017.07.1900

摘要（560）

PDF （928KB）（381）

MapReduce计算场景下，复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成，但多个作业之间严重的冗余磁盘读写及重复的资源申请操作，使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率，首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析；在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率，并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时，算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%，Spark平台下的算法相比MapReduce平台，执行效率整体提高3倍以上。

参考文献 | 相关文章 | 多维度评价

Select

2. 大数据流式计算环境下的阈值调控节能策略

蒲勇霖, 于炯, 王跃飞, 鲁亮, 廖彬, 侯冬雪

计算机应用 2017, 37 (6): 1580-1586. DOI: 10.11772/j.issn.1001-9081.2017.06.1580

摘要（542）

PDF （1225KB）（483）

在大数据实时分析计算领域，流式计算的重要性不断提高，但是流式计算平台处理数据的能耗不断上升。针对这一问题，改变流式计算中节点对数据的处理方式，提出了一种阈值调控节能策略（ESTC）。首先，根据系统负载差异确定工作节点的阈值情况；其次，通过工作节点的阈值对系统数据流进行随机选择，确定不同数据处理情况调节系统的物理电压；最后，根据不同的物理电压确定系统功率。实验结果和理论分析表明，在20台普通PC机构成的流式计算集群中，实施ESTC的系统比原系统有效节能约35.2%；此外，ESTC下的性能与能耗的比值为0.0803 tuple/（s·J），而原系统性能与能耗的比值为0.0698 tuple/（s·J）。ESTC能够在不影响系统性能的前提下，有效降低了能耗。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于聚类层次模型的视频推荐算法

金亮, 于炯, 杨兴耀, 鲁亮, 王跃飞, 国冰磊, 廖彬

计算机应用 2017, 37 (10): 2828-2833. DOI: 10.11772/j.issn.1001-9081.2017.10.2828

摘要（584）

PDF （1025KB）（669）

目前推荐系统存在评论数据稀疏、冷启动和用户体验度低等问题，为了提高推荐系统的性能和进一步改善用户体验，提出基于聚类层次模型的视频推荐算法。首先，从相关用户方面着手，通过近邻传播（AP）聚类分析得到相似用户，从而收集相似用户中的历史网络视频数据，进而形成视频推荐集合；其次，利用用户行为的历史数据计算出用户对视频的喜好值，再把视频的喜好值转换成视频的标签权重；最后，通过层次分析模型算出视频推荐集合中用户喜好视频的排序，产生推荐列表。基于MovieLens Latest Dataset和YouTube视频评论文本数据集，实验结果表明所提算法在均方根误差和决策精度方面均表现出良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

4. 适应异构集群的Mesos多资源调度DRF增强算法

柯尊旺, 于炯, 廖彬

计算机应用 2016, 36 (5): 1216-1221. DOI: 10.11772/j.issn.1001-9081.2016.05.1216

摘要（436）

PDF （870KB）（483）

云计算集群环境下多资源分配的公平性是考量资源调度子系统最重要的指标之一,DRF作为通用的多资源公平分配算法,在异构异质的集群环境下可能有失公平性。在研究Mesos框架中DRF多资源公平分配算法的基础上,设计并实现了增加机器性能评估影响因子的meDRF分配算法。将计算节点的机器性能得分,作为DRF主导份额计算的因子,使得计算任务有均等的机会获得优质计算资源和劣质计算资源。通过选取 K-means、Bayes及PageRank等多种作业进行实验,实验结果表明:meDRF较DRF分配算法更能体现多资源分配的公平性,且资源分配具有更好的稳定性,能有效提高系统资源的利用率。

参考文献 | 相关文章 | 多维度评价

Select

5. 结构化查询语言动态功耗解析及建模

国冰磊, 于炯, 廖彬, 杨德先

计算机应用 2015, 35 (12): 3362-3367. DOI: 10.11772/j.issn.1001-9081.2015.12.3362

摘要（518）

PDF （923KB）（324）

为构建节能的绿色数据库,提出一种基于结构化查询语言(SQL)资源(中央处理单元(CPU)、磁盘)消耗的最小单位的数据库动态能耗模型。该模型对系统动态能耗进行解析,将系统主要硬件(CPU、磁盘)的资源消耗映射成功率消耗,采用多元线性回归方法拟合模型关键参数,实时地估算系统动态功率,构建单位统一的动态功耗模型。实验结果表明,相比基于元组总数的模型,CPU指令总数能更好地反映CPU的功率消耗,所构模型在数据库管理系统(DBMS)独占系统资源的静态环境下,平均相对误差小于6%,绝对误差不超过9%。该动态功耗模型更适合于构建节能的绿色数据库。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于数据分类存储的云存储系统节能算法

张陶廖彬孙华李丰军姬金虎

计算机应用 2014, 34 (8): 2267-2272. DOI: 10.11772/j.issn.1001-9081.2014.08.2267

摘要（414）

PDF （956KB）（460）

云存储规模的不断扩大以及设计时对能耗因素的忽略使其日益暴露出高能耗低效率的问题，并且此问题已经成为制约云计算与大数据快速发展的一个主要瓶颈。已有研究大多采用将整个存储节点调整到低能耗模式以达到节能的目的。根据数据的重复性及访问规律，设计了基于数据分类的存储模型，将存储区域划分为热数据块区、冷数据块区与重复文件区，根据不同数据的重复性及活动因子特点进行分区存储。围绕新的存储模型，设计了适应节能的数据存储算法并建立了能耗模型。实验结果表明：当系统负载小于设定阈值时，新的存储模型能够提高存储系统25%左右的能耗利用率。

参考文献 | 相关文章 | 多维度评价

Select

7. 数据依赖约束下的任务调度资源选择算法

廖彬于炯张陶杨兴耀

计算机应用 2014, 34 (8): 2260-2266. DOI: 10.11772/j.issn.1001-9081.2014.08.2260

摘要（290）

PDF （1100KB）（428）

大数据环境下的计算任务往往具有一定数据依赖性关系(如MapReduce)，现有的分布式存储系统任务资源选择策略选择离请求者最近的数据块响应服务，忽略了对数据块所在服务器CPU、磁盘I/O与网络等资源负载状态的考虑。在分析研究系统集群结构、文件分块、数据块存储机制的基础上，定义了集群节点矩阵、CPU负载矩阵、磁盘I/O负载矩阵、网络负载矩阵、文件分块矩阵、数据块存储矩阵与数据块存储节点状态矩阵，为任务与数据之间的依赖性构建了基础数据模型，提出了一种数据依赖约束下的最优资源选择算法(ORS2DC)。任务调度节点负责维护基础数据，MapReduce任务与数据块读取任务由于依赖资源不同而采取不同的选择策略。实验结果表明：所提算法能够为任务选择质量更高的资源，提高任务完成质量的同时减轻了NameNode负担，减小了单点故障发生的概率。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于快速构建模板的购物信息抽取方法

李萍朱建波周立新廖彬

计算机应用 2014, 34 (3): 733-737. DOI: 10.11772/j.issn.1001-9081.2014.03.0733

摘要（401）

PDF （888KB）（750）

针对由模板生成的购物信息网页，且根据其网页信息量大，网页结构复杂的特点，提出了一种不使用复杂的学习规则，而将购物信息从模板网页中抽取出来的方法。研究内容包括定义网页模板和网页的信息抽取模板，设计用于快速构建模板的模板语言，并提出一种基于模板语言抽取内容的模型。实验结果表明，在标准的450个网页的测试集下，所提方法的召回率相比抽取问题算法(EXALG)提高了12%；在250个网页的测试集下，召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%，0.2%；准确率相比ViNTs方法和ViPER方法分别提升了5.2%，0.2%。基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升，使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进。

相关文章 | 多维度评价

Select

9. 综合用户和项目预测的协同过滤模型

杨兴耀于炯吐尔根·依布拉音廖彬

计算机应用 2013, 33 (12): 3354-3358.

摘要（918）

PDF （792KB）（925）

针对基于用户和基于项目的协同过滤模型存在推荐质量不高等问题，提出一种综合用户和项目预测的协同过滤模型。该模型同时考虑用户和项目两方面，首先对性能优秀的相似性模型进行自适应的优化;然后根据相似性值分别选取相似用户和相似项目为目标对象构造近邻集合，并利用预测函数得到基于用户和基于项目的预测结果;最后通过自适应平衡因子的协调处理获得最终预测结果。比较实验在不同的评估标准下进行,结果表明，与目前典型的模型如RSCF、HCFR和UNCF相比，新提出的协同过滤模型不仅在项目预测准确性方面拥有出色的表现，而且在推荐准确性和全面性方面同样表现优秀。

相关文章 | 多维度评价

Select

10. 云计算环境下软硬件节能和负载均衡策略

钱育蓉于炯王卫源孙华廖彬杨兴耀

计算机应用 2013, 33 (12): 3326-3330.

摘要（687）

PDF （867KB）（621）

针对云计算服务环境下软硬件节能和负载均衡优化问题，提出一种自适应的云计算环境下虚拟机(VM)动态迁移软节能策略。该策略采用常用的硬件能耗感知技术——动态电压频率调节(DVFS)来实现分段优化的系统部件静态节能，又通过VM在线迁移技术实现云平台的动态自适应软件节能。在CloudSim云仿真平台下对比实现DVFS静态节能和自适应负载均衡的软节能策略，经PlanetLab云平台监测数据验证，结果表明：软硬结合的自适应能耗感知策略能够高效节能96%； DVFS+MAD_MMT节能策略(采用平均绝对偏差算法判定主机是否超载，基于最短迁移时间(MMT)原则选择VM移出)

相关文章 | 多维度评价

Select

11. 基于P2P的分布式文件系统下载效率优化

廖彬于炯张陶杨兴耀

计算机应用 2011, 31 (09): 2317-2320. DOI: 10.3724/SP.J.1087.2011.02317

摘要（1780）

PDF （730KB）（501）

对分布式文件系统(HDFS)集群内部数据块存储机制与下载流程进行分析研究，结合P2P多点与多线程下载思想，从数据块、文件、集群三个方面提出了数据下载效率优化算法。考虑到集群内部可能因多线程下载出现的负载均衡问题，提出下载点选择算法以优化下载点的选择。实验结果表明，三种优化算法都能提高下载效率，下载点选择算法能够很好地实现集群内部DataNode负载均衡。

相关文章 | 多维度评价